Les données sont chargées à partir d’HUB’EAU, un service Eau France. Le package “hubeau” interroge les APIs du système d’informations.

library(hubeau)
library(tidyverse)
library(sf)
library(DT)
library(cowplot)
library(DT)
library(httr)#utiliser POST pour calcul i2m2 à partir du SEEE
library(trend)
library(ggrepel)
library(mapview)
library(lubridate)
library(httr)
library(ggplot2)
library(dplyr)

functions <- list.files(path = "R",
                        pattern = ".R$",
                        full.names = TRUE)

map(.x = functions,
    .f = source)
## list()

Dans un premier temps, la distributions des variables a été étudiée. Cela a permis de repérer les outliers, les erreurs de rentrée et de les supprimées

La visualisation de la disponibilité des données nous a aidé à fixer un seuil à partir du quel on ne retient pas les stations. Ici, les stations de prélèvement biologiques sont retenues si le nombre d’années de prélèvement est supérieur à 5.

## [1] 112

Analyse univariée des variables

## $x
## [1] "Année"
## 
## $y
## [1] "Variance"
## 
## $title
## [1] "Variance de l'indice et ses métriques au fil des années"
## 
## attr(,"class")
## [1] "labels"

## $x
## [1] "Année"
## 
## $y
## [1] "Variance"
## 
## $title
## [1] "Variance des indices au fil des années"
## 
## attr(,"class")
## [1] "labels"

## $x
## [1] "Année"
## 
## $y
## [1] "Variance"
## 
## $title
## [1] "Variance des paramètres physico-chimiques au fil des années"
## 
## attr(,"class")
## [1] "labels"



Tendances des indices et métriques.

On s’est intéressé aux classes d’état des indices I2M2 et IBD par station au cours du temps. On y observe un gradient ouest-est.

Les prélèvements physico-chimiques sont réalisés tout au long de l’année, parfois plus d’une fois par mois. Afin de réaliser des analyses bi-variées puis multivariées, il était nécessaire de retenir une période temporelle pour les paramètres physico-chimiques. Les critères sur lesquels se base cette sélection sont :

On néglige la richesse taxonomique et l’indice de Shannon dans le choix des périodes temporelle.

On retient alors : mars à décembre pour le taux de saturation en oxygène et l’oxygène dissous ; de janvier à mars pour la concentration en nitrates (période de lessivage due aux précipitations hivernales) et annuelle pour le reste des paramètres. A partir de ce choix, on calcule les moyennes annuelles puis interannuelles, cela nous permet d’avoir une approche entièrement spatiale (à l’échelle de la station). L’hypothèse de choisir une année au hasard est également possible, en sachant qu’il y a une stabilité des variables au cours du temps.

Après avoir fait le df, on obtient donc 232 lignes (correspondant au nombre de stations retenue pour la physico-chimie), et 14 colonnes correspondantes aux différents paramètres.

Les matrices de corrélation sont réalisées à partir de ce jeu de données. Le test utilisé est Spearman, car les valeurs n’ont pas une distribution normale (pour la plupart).

L’analyse des composantes principales est une analyse multivariée qui permet

## **Results for the Principal Component Analysis (PCA)**
## The analysis was performed on 112 individuals, described by 8 variables
## *The results are available in the following objects:
## 
##    name               description                          
## 1  "$eig"             "eigenvalues"                        
## 2  "$var"             "results for the variables"          
## 3  "$var$coord"       "coord. for the variables"           
## 4  "$var$cor"         "correlations variables - dimensions"
## 5  "$var$cos2"        "cos2 for the variables"             
## 6  "$var$contrib"     "contributions of the variables"     
## 7  "$ind"             "results for the individuals"        
## 8  "$ind$coord"       "coord. for the individuals"         
## 9  "$ind$cos2"        "cos2 for the individuals"           
## 10 "$ind$contrib"     "contributions of the individuals"   
## 11 "$call"            "summary statistics"                 
## 12 "$call$centre"     "mean of the variables"              
## 13 "$call$ecart.type" "standard error of the variables"    
## 14 "$call$row.w"      "weights for the individuals"        
## 15 "$call$col.w"      "weights for the variables"
##          eigenvalue percentage of variance cumulative percentage of variance
## comp 1 5.678827e+00           7.098533e+01                          70.98533
## comp 2 1.229016e+00           1.536270e+01                          86.34803
## comp 3 5.264650e-01           6.580812e+00                          92.92884
## comp 4 3.356356e-01           4.195445e+00                          97.12429
## comp 5 1.329082e-01           1.661353e+00                          98.78564
## comp 6 6.820708e-02           8.525885e-01                          99.63823
## comp 7 2.894161e-02           3.617701e-01                         100.00000
## comp 8 3.043476e-08           3.804345e-07                         100.00000

## **Results for the Principal Component Analysis (PCA)**
## The analysis was performed on 232 individuals, described by 14 variables
## *The results are available in the following objects:
## 
##    name               description                          
## 1  "$eig"             "eigenvalues"                        
## 2  "$var"             "results for the variables"          
## 3  "$var$coord"       "coord. for the variables"           
## 4  "$var$cor"         "correlations variables - dimensions"
## 5  "$var$cos2"        "cos2 for the variables"             
## 6  "$var$contrib"     "contributions of the variables"     
## 7  "$ind"             "results for the individuals"        
## 8  "$ind$coord"       "coord. for the individuals"         
## 9  "$ind$cos2"        "cos2 for the individuals"           
## 10 "$ind$contrib"     "contributions of the individuals"   
## 11 "$call"            "summary statistics"                 
## 12 "$call$centre"     "mean of the variables"              
## 13 "$call$ecart.type" "standard error of the variables"    
## 14 "$call$row.w"      "weights for the individuals"        
## 15 "$call$col.w"      "weights for the variables"
##          eigenvalue percentage of variance cumulative percentage of variance
## comp 1  5.946580838             42.4755774                          42.47558
## comp 2  1.963092088             14.0220863                          56.49766
## comp 3  1.317452081              9.4103720                          65.90804
## comp 4  1.094888212              7.8206301                          73.72867
## comp 5  0.959757908              6.8554136                          80.58408
## comp 6  0.689899140              4.9278510                          85.51193
## comp 7  0.551953981              3.9425284                          89.45446
## comp 8  0.438951675              3.1353691                          92.58983
## comp 9  0.336160229              2.4011445                          94.99097
## comp 10 0.278898495              1.9921321                          96.98310
## comp 11 0.206459006              1.4747072                          98.45781
## comp 12 0.173738686              1.2409906                          99.69880
## comp 13 0.039572202              0.2826586                          99.98146
## comp 14 0.002595461              0.0185390                         100.00000

## list()
## 
## Call:
## glm(formula = I2M2 ~ DBO5 + NH4 + NO3 + Ptot, family = gaussian(link = "identity"), 
##     data = df_global_sans_stations)
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  1.05567    0.04315  24.464  < 2e-16 ***
## DBO5        -0.20703    0.03379  -6.128 1.51e-08 ***
## NH4         -0.38369    0.20535  -1.868   0.0644 .  
## NO3         -0.00252    0.00123  -2.049   0.0429 *  
## Ptot        -0.40641    0.25937  -1.567   0.1201    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for gaussian family taken to be 0.01022435)
## 
##     Null deviance: 4.4409  on 111  degrees of freedom
## Residual deviance: 1.0940  on 107  degrees of freedom
## AIC: -188.57
## 
## Number of Fisher Scoring iterations: 2
## Start:  AIC=-188.57
## I2M2 ~ DBO5 + NH4 + NO3 + Ptot
## 
##        Df Deviance     AIC
## <none>      1.0940 -188.57
## - Ptot  1   1.1191 -188.03
## - NH4   1   1.1297 -186.97
## - NO3   1   1.1369 -186.26
## - DBO5  1   1.4780 -156.88
## 
##  studentized Breusch-Pagan test
## 
## data:  model_normal_non_transformées
## BP = 5.8962, df = 2, p-value = 0.05244

##     DBO5      NH4      NO3     Ptot 
## 3.756000 2.987238 1.137254 3.899148

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(model_normal_non_transformées)
## W = 0.99003, p-value = 0.5881